Computer Vision Labチーム
はじめに こんにちは、電気通信大学大学院修士一年の梶凌太です。普段は動画生成に関する研究を行っています。 今回は6週間の就業型インターンシップに参加させていただき、Computer Vision Lab (CVL)チームで「ストーリーを考慮した料理動画要約」に関する研究活動に取り組みました。 ここでは、インターンシップ中での自分の取り組みとその成果について報告します。 背景 近年、動画メディアは爆発的に普及していますが、動画は画像と比較して冗長であり、ユーザーの求めるシーン以外のものを多く含みます。長い動画から重要なシーンのみを要約してダイジェスト動画を作るタスクであるVideo summarizationは、このような背景のもと需要が高まっています。 例えば料理動画などがその一例で、視聴するユーザの利便性を考えると、調理手順に関するところなどの見たいところ・気になるところのみを取り出したいという需要は高いです。ユーザーの欲しいシーンの描写をテキストで与えたときに、対応するシーンを抽出するタスクを考えると、料理動画はこのような観点で使いやすいため今回の研究対象としました。 今回のインタ
CVLチーム
京都大学情報学研究科 修士1年の松田有登です.8月7日から9月15日の6週間、LINE DSC(データサイエンスセンター)のComputer Vision Lab (CVL) Virtual Human Lab (VHL)チームでインターンシップに参加させていただきました。今回私が取り組んだ手の動きを含めた動作生成についてご紹介します。 背景 動作生成モデルは、アクションラベルや言語、音楽などを入力したときに、それに対応した動作、行動を出力するモデルです。既存の動作生成モデルには、Variational Autoencoder (VAE)のEncoder、Decoderに正解ラベルを付与したConditional Variational Autoencoder (CVAE)を用いて、動作の種類を示すラベルによる条件付き動作生成を行なったACTOR[1]や、Diffusion modelベースでtext-to-motionやaction-to-motionなどのタスクをこなすMLD[2]などが挙げられます。しかし、いずれのモデルにおいても手の動き・動作は考慮されておらず、常に手
はじめに こんにちは、東京大学情報理工学系研究科コンピュータ科学専攻修士一年の藤田光と申します。私は6週間LINE AIカンパニーのComputer Vision Labチーム(CVL) Virtual Humanユニットでインターンシップに参加させていただき、研究活動を行いました。今回私が期間中に取り組んだ多視点画像による光源環境の推定と、それによる編集可能なNeRFに向けた研究と実験についてご紹介します。 問題背景 近年NeRF[1]をベースとして多視点の画像から三次元のvolumetricな表現を学習する手法が多く研究されています。これは三次元空間内の各点の輝度を推定することで任意の視点の画像をvolume renderingするというのが主な手法ですが、空間内のすべての点を同様に扱うためオブジェクトごとに認識されているわけではなくオブジェクトを移動・追加させたり、不要なオブジェクトを消すことが困難です。いくつかの研究[4]ではオブジェクト毎に表現を学習することで編集が可能なNeRFベースのモデルが考案されていますが、どこか出力された画像は不自然に見えるものもあります。この原因は
はじめに 8/8から6週間の就業型インターンに参加しました、中村祥大と申します。私は東京工業大学大学院に所属する修士1年で、現在は深層学習の高速化に関する研究をしています。 今回のインターンではComputer Vision LabのOCRユニットに所属し、その中でも特に、テキスト認識タスクの性能向上に関連するテーマに取り組みました。本レポートではその成果について報告します。 背景 今回のインターンで私はテキスト認識に関連するタスクに取り組みました。テキスト認識とは、与えられた画像に書かれている文字列は何であるかを認識する処理です。 近年、深層学習モデルを用いたテキスト認識が台頭しています。しかしながら、そのようなアプローチには、学習時に登場していないテキストを含む画像に対する認識精度が低下するという問題(Vocabulary Reliance)が存在します。以降ではテキストの集合のことを「語彙」、「学習に用いる語彙」のことをIn Voc、「学習に用いておらず、実際の推論時に登場する語彙」のことをOut Vocと呼びます。実際のユースケースで登場しうるOut Vocの例として、「ana
こんにちは。慶應義塾大学大学院 理工学研究科 修士1年の上田栞です。8月から6週間、LINE株式会社の2022年度夏季インターンシップ「技術職 就業型コース」に参加させていただき、リサーチインターンとして、AIカンパニーのComputer Vision Labチームに配属され、「形状を詳細に反映した顔の3次元再構成」という研究に取り組みました。本レポートでは、我々が目標としている課題と、インターンシップにて取り組んだ内容・成果について説明します。 テーマ背景 バーチャルヒューマンの技術は近年急速に発展しており、仮想の人物を創り出すだけでなく、実在の人物をバーチャル化する取り組みも行われています。実在の人物に近いバーチャルヒューマンを作成するためには、リアルな顔を生成することが必要ですが、現在のCG技術では、作成された顔にまだCGらしさが残っており、リアルであるとは言えません。 コンピュータビジョンの分野でも、人物の顔を操作する研究が活発に行われています。有名な例として、ディープフェイクがあります。ディープフェイクでは、敵対的生成ネットワークを使用して2人の人物の顔を入れ替えることで、顔
1. 初めに こんにちは、東京大学大学院情報理工学系研究科コンピュータ科学専攻の修士1年の増本雄斗です。研究室では自然言語処理を専門に研究をしています。今回、LINEでの就業型エンジニアリングインターンシップに参加し、AI開発室のComputer Vision Lab チーム(以下、CVLチームと表記)での取り組みを紹介したいと思います。本記事では、LINEでのインターンがどのようなも のであったかを私の取り組みを紹介しつつ伝えられれば、と思っております。 2. インターン課題と目的 背景 近年のVision&Languageモデリングは、大規模に画像とテキストを両方用いた学習により、画像からのテキスト、テキストから画像といった高品質な生成が可能となりました。具体的には、画像生成においては、テキストから任意の画像を生成するOpenAIのDALL・E[1]や、商用利用可能なStable Diffusionモデル[2]などが公開されており、その生成画像の品質の高さに注目を集めています。一方で、テキスト生成においては、画像を入力としてその説明文を生成する、Imga
こんにちは。慶應義塾大学大学院 理工学研究科 修士1年の枡田 真奈です。8月から6週間、LINE株式会社の20201年度夏季インターンシップ「技術職 就業型コース」に参加させていただき、リサーチインターンとして、AIカンパニー/AI ResearchチームのComputer Vision Labチーム (CVL)に配属され、「2D/3D バーチャルヒ ューマンを機械学習モデルによって動かす」という研究に取り組みました。本レポートでは、我々が目標としている課題と、インターンシップにて取り組んだ内容・成果について説明します。 バーチャルヒューマンを動かすとは? バーチャルヒューマンは、近年、2D/3Dともに発展してきています。現在は、このようなバーチャルヒューマンは人間の動きをキャプチャーしたり、体だけは実際のモデルを使うなどして動いている映像を作成していますが、それだと作成できる動きの数には限界があり、今後、AR/VRの世界にバーチャルヒューマンが進出していくには、より自然な動きを自動で生成できる技術が必要になります。今回のインターンでは、そのための基礎技術の研究に取り組みました。この技術